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摘要 : [目的 /意义 ] 对 比分 析 国 内 图 书馆 自行 采集 电子 资源 使 用 统计 数据 的 主要 方法 ,解决 现 有 技术 方法 
无 法 采集 基于 HTTPS 协议 的 电子 资源 访问 信息 的 问题 。[ 方法/ 过程] 在 现 有 基于 旁 路 监听 的 采集 模式 的 基础 
上 对 技术 加 以 改进 ,通过 策略 路 由 和 Fiddler 代理 程序 来 实现 基于 HTTPS 协议 访问 的 电子 资源 使 用 数据 的 统计 
和 分 析 , 并 在 此 基础 上 设计 并 应 用 电子 资源 使 用 统计 分 析 系 统 。[ 结果 /结论 ] 解决 了 基于 HTTPS 协议 访问 的 


电子 资源 使 用 数据 的 采集 问题 ,对 其 他 图 书馆 自行 采集 电子 资源 使 用 统计 数据 有 一 定 的 借鉴 作用 。 
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策略 路 由 使 用 统计 数据 ”Fiddler 代理 程序 ” 旁 路 监听 


电子 图 书 .电子 期 刊 .全文 数据 库 .二 次 文摘 数据 
库 侍 电子 资源 已 经 逐渐 成 为 了 图 书馆 用 户 获取 信息 的 
主要 途径 ,其 在 图 书馆 资源 中 所 占 的 比例 也 越 来 越 重 ， 
其 全 有 部 分 图 书馆 已 经 完全 放弃 了 纸 质 资源 ,而 将 全 
部 终 费 投入 到 电子 资源 的 采购 当中 。 电 子 资源 在 图 书 
馆 串 的 作用 越 来 越 重要 ,其 使 用 情况 的 统计 数据 成 为 


用 统计 数据 有 一 定 的 滞后 性 。 外 在 全 面 性 方面 ， 
Counter 报告 只 能 对 订购 的 电子 资源 利用 情况 进行 统 
计 , 而 不 能 履 盖 图 书馆 的 完整 网 络 资源 (例如 免费 的 电 
子 资 源 和 馆藏 电子 资源 ) ; Counter 报告 只 能 提供 统计 
数字 ,无 法 满足 图 书馆 对 电子 资源 进行 内 容 级 /用 户 级 
的 及 时 深入 的 分 析 和 数据 挖掘 的 需要 。 

为 了 解决 Counter 报告 的 局 限 性 ,国内 图 书馆 开展 
了 自行 采集 电子 资源 使 用 统计 数据 的 研究 并 进行 了 实 


图 昨 馆 分 析 和 了 解 电子 资源 价值 的 重要 手段 "。 电 子 
资 晨 使 用 统计 数据 对 于 图 书馆 具有 重要 价值 ,其 精确 
地 昭 映 了 电子 资源 的 利用 状况 ,可 为 图 书馆 重 构 网 络 
门户 .提供 用 户 培 训 课程 以 及 明确 重点 突出 哪些 电子 
资源 产品 提供 重要 参考 ,还 能 辅助 图 书馆 员 制 定 有 关 
电子 资源 购买 和 管理 方面 的 馆藏 决策 ” 。 

数据 库 商 提供 的 使 用 统计 报告 是 图 书馆 获取 电子 
资源 使 用 统计 数据 的 主要 方式 。 大 部 分 数据 库 商 已 经 
可 以 提供 遵守 Counter 使 用 统计 和 数据 计量 标准 的 统计 
报告 ,并 支持 标准 收割 接口 SUSHI, 可 供 图 书馆 统一 收 
集 与 整合 ,实现 全 部 电子 资源 使 用 统计 数据 的 管理 ” 。 

基于 Counter 标准 的 使 用 统计 报告 具有 规范 性 、 易 
用 人 性、 自动 化 和 低 成 本 的 优点 ,但 其 也 存在 一 定局 限 
性 :中 在 时 效 性 方面 ,数据库 商 的 系统 基本 是 在 每 月 的 
中 旬 左 右 生 成 上 个 月 的 使 用 统计 报告 。 图 书馆 获取 使 


际 应 用 。 从 已 有 的 研究 论文 来 看 ,图 书馆 自行 采集 电 
子 资源 使 用 统计 数据 根据 采用 的 技术 方法 主要 可 以 分 
为 2 种 :基于 网 关 日 志 的 采集 分 析 模 式 和 基于 旁 路 监 
听 的 采集 分 析 模 式 。 

本 文通 过 研究 国内 已 发 表 论 文 在 这 两 种 方法 上 的 
应 用 情况 来 分 析 这 两 种 方法 的 优点 和 局 限 性 。 在 此 基 
础 上 ,对 现 有 的 技术 手段 上 加 以 改进 ,设计 并 实现 电子 
资源 使 用 统计 分 析 系 统 , 并 在 中 国 科 学 院 福 建物 质 结 
构 研 究 所 图 书 情报 中 心 ( 下 文 简 称 “ 本 馆 ”) 投 入 实践 
使 用 。 


2 图 书馆 自行 采集 电子 资源 使 用 统计 


数据 的 两 种 方法 
2.1 基于 网 关 日 志 的 采集 分 析 模式 
用 户 对 Imtemet 的 访问 数据 都 会 经 过 统一 的 出 品 
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网 关 ( 如 核心 交换 机 、 防 火 墙 . 代 理 服 务 器 等 ) ,出 口 网 
关 会 将 所 有 的 访问 信息 记录 在 日 志 上 ,其 中 也 包含 电 
子 资源 的 访问 数据 。 图 书馆 通过 对 日 志 信息 进行 采 
集 .过 滤 和 分 析 就 可 以 得 到 电子 资源 的 使 用 统计 报告 。 
国内 现 有 的 案例 有 闫 晓 弟 等 设计 实现 电子 资源 利用 统 
计 网 关 "" , 王 孝 亮 等 通过 防火 墙 日 志 挖 掘 构建 电子 期 
刊 数据 库 统 计 分 析 系统 5 , 郭 振 英 等 设计 电子 资源 日 
志 统计 系统 '% , 周 欣 等 通过 Web 日 志 挖掘 分 析 读者 行 
为 ,等 等 。 

通过 对 上 述 案例 的 研究 分 析 可 以 得 知 基于 网 关 日 


访问 管理 与 控制 系统 ”, 施 晓 华 等 利用 旁 路 监听 设计 
和 应 用 高 校 电 子 资源 访问 管理 控制 系统 " ,王政 军 等 
基于 旁 路 监听 设计 和 实现 数字 资源 评估 系统 ”, 武 群 
辉 等 研究 面向 科研 的 高 校 图 书馆 电子 资源 使 用 统计 模 
式 呈 等。 

基于 旁 路 监听 的 采集 分 析 模式 有 以 下 几 个 优点 : 

(1) 直接 对 用 户 访 问 电子 资源 和 电子 资源 返回 的 
的 数据 包 进 行 解析 ,可 以 得 到 最 原始 准确 、 完 整 的 电 
子 资源 访问 信息 。 

(2) 对 访问 电子 资源 的 数据 包 的 镜像 复制 和 解析 


志 的 采集 分 析 模 式 的 优点 在 于 不 需要 增加 额外 的 网 络 
设备 用 于 抓 取 分 析 数 据 包 ,而 是 可 以 直接 利用 现 有 的 
网 关 自 带 的 日 志 功 能 记录 用 户 访问 行为 ,再 通过 技术 
所 眉 过 滤 清洗 分 析 整合 数据 后 生成 电子 资源 使 用 统 
计 报 告 ,节省 了 硬件 成 本 。 关 键 技术 的 难点 在 于 网 关 记 


是 随 着 用 户 的 信息 访问 行为 实时 发 生 的 ,也 就 是 说 可 
以 实时 监控 用 户 的 访问 行为 以 及 实时 生成 使 用 统计 报 
告 。 及 时 地 监控 数据 有 助 于 加 强 电 子 资源 的 规范 使 
用 , 设 定 违规 冰 值 ,对 违规 行为 给 予 提 前 预警 和 处 置 ， 
避免 数据 库 商 大 面积 封禁 而 影响 其 他 用 户 的 正常 使 


EBL] 


未 的 日 志 数据 不 仅 包含 电子 资源 的 访问 数据 ,也 包含 其 
便 的 网 络 访问 信息 。 在 采集 电子 资源 使 用 统计 数据 的 
过 各 中 需要 高 效 ,快速 准确 地 匹配 IP 和 特征 值 数据 来 
渤 渡 掉 和 用 户 电子 资源 访问 行为 无 关 的 数据 。 

基于 网 关 日 志 的 采集 分 析 模 式 也 存在 一 定 的 局 限 


@D(1 ) 使 用 统计 报告 的 唯一 数据 来 源 是 网 关 的 日 志 
数 汇 。 网 关 记录 的 日 志 信息 可 能 不 够 完整 ,无 法 满足 
图 书馆 进行 深入 分 析 以 及 数据 挖掘 的 需求 。 不 同 网 关 
户 台 的 日 志 格式 区 别 较 大 ,数据 处 理 相关 的 关键 代码 
没有 通用 性 。 
三 (2 ) 使 用 统计 报告 的 生成 时 间 取决 于 日 志 数 据 的 
收 伍 策略 。 采 用 每 日 收割 策略 则 可 以 每 日 生成 使 用 统 
计 报 告 ,如果 每 月 收割 一 次 数据 则 只 能 每 月 生成 一 次 
使 用 统计 报告 。 由 于 日 志 数 据 的 特殊 性 ,无 法 采用 实 
时 收割 策略 ,使 用 统计 报告 的 生成 必然 有 一 定 的 滞后 
性 。 滞 后 性 的 存在 使 得 基于 网 关 日 志 的 采集 分 析 模式 
无 法 实现 对 电子 资源 访问 行为 的 实时 监控 。 
2.2 ”基于 旁 路 监听 的 采集 分 析 模 式 
基于 旁 路 监听 的 采集 分 析 模 式 是 在 网 络 出 口 的 核 
心 设备 上 通过 端口 镜像 功能 复制 数据 流 , 将 复制 的 数 
据 流转 发 至 监听 分 析 服 务 器 , 由 监听 分 析 服 务 器 抓 取 
数据 包 、 解 析 访 问 数据 过滤 分 析 后 生成 电子 资源 使 用 
统计 报告 ,并 在 这 个 过 程 中 对 用 户 的 电子 资源 访问 行 
为 进行 监控 。 国 内 现 有 的 案例 有 朱 玲 等 对 ERU 和 
DRAS 监控 与 系统 的 数据 获取 质量 评估 探讨 ” , 张 计 
龙 等 基于 ERU 系统 研究 图 书馆 用 户 信 息 行为 数据 采 
集 方法 " , 邹 荣 利 等 用 旁 路 监听 设计 及 应 用 电子 资源 


人 六 。o 

(3) 由 于 采用 了 旁 路 监听 模式 复制 了 数据 包 , 不 
修改 原始 数据 包 ,不 需要 改变 原 有 的 网 络 拓 扑 结构 ,不 
会 对 用 户 的 网 络 访问 行为 造成 任何 影响 。 

从 现 有 案例 的 研究 分 析 来 看 ,基于 旁 路 监听 的 采 
集 分 析 模 式 关 键 的 技术 难点 在 于 如 何 抓 取 数据 包 、 解 
析 数 据 包 提 取 关 键 信 息 。 图 书馆 自行 开发 电子 资源 访 
问 监控 分 析 系 统 的 时 候 ,在 Windows 平台 下 可 以 采用 
WinPecap"" 或 WireShark 软件 抓 取 解析 数据 包 , 在 
Linux 平台 下 则 可 以 使 用 NetFilter 框架 "或 Iptable 防 
火 墙 抓 取 解析 数据 包 。 如 果 图 书馆 缺乏 技术 力量 自行 
开发 ,也 可 以 考虑 采购 商业 化 软件 来 监控 分 析 电 子 资 
源 访问 信息 ,如 上 海光 华 复旦 公司 的 ERU 系统 和 同方 
知 网 公司 的 DRAS 系统 。 

相对 于 基于 网 关 日 志 的 采集 分 析 模 式 , 基 于 旁 路 
监听 的 采集 分 析 模 式 及 时 性 更 强 ,数据 更 加 全 面 准 确 ， 
并 且 不 会 对 网 络 结构 和 用 户 网 络 访问 行为 产生 影响 。 
旁 路 监听 的 技术 已 经 非常 成 熟 ,市 场 上 也 有 商业 化 的 
软件 ,可 以 说 基于 旁 路 监听 的 采集 分 析 模 式 是 目前 最 合 
适 图 书馆 自行 采集 电子 资源 使 用 统计 数据 的 模式 。 该 
模式 唯一 的 局 限 性 是 需要 在 原 有 网 络 结构 上 增加 专门 
的 监控 分 析 服 务 器 ,需要 额外 的 硬件 投入 ,成 本 较 高 。 


3 ， 现 有 模式 存在 的 问题 及 解决 方案 
3.1， 现 有 模式 存在 的 问题 

笔者 在 对 上 述 的 两 种 模式 进行 测试 的 时 候 发 现 : 
采用 HTTP 协议 访问 的 电子 资源 ,两 种 模式 都 能 采集 
到 电子 资源 访问 信息 ;而 采用 HTTPS 协议 访问 的 电子 
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资源 ,无论 是 日 志 网 关 还 是 监听 分 析 服 务 器 都 无 法 采 
集 到 电子 资源 访问 信息 ,也 就 是 说 两 种 模式 对 于 采用 
HTTPS 协议 访问 的 电子 资源 不 起 作用 。 
通过 分 析 发 现 HTTP 协议 与 HTTPS 协议 最 大 的 区 
别 在 于 :HTTP 协议 采用 明文 传输 数据 ,HITPS 协议 采 
用 密 文 传输 数据 。HTTP 协议 传输 的 数据 对 整个 链 路 
上 所 有 的 网 络 设备 都 是 透明 的 , 当 数 据 包 到 达 网 关 或 
监听 分 析 服 务 器 时 ,网 关 或 监听 分 析 服 务 器 可 以 直接 
得 知 传输 的 内 容 并 加 以 处 理 。HTTPS 协议 传输 的 数据 
只 对 发 送 方 和 接收 方 透明 ,传输 链 路 上 的 其 他 网 络 设 
备 都 无 法 得 知 数据 内 容 ，。HTTPS 协议 的 数据 加 密 
过 程 发 生 在 OSI 七 层 模型 当中 的 应 用 层 ,数据 包 从 网 
络 适配器 发 送 之 前 就 已 经 加 密 完 成 , 当 数据 包 到 达 网 
关 或 监听 分 析 服 务 器 时 已 经 是 加 密 后 的 数据 包 , 网 关 
或 所 喧 听 分 析 服 务 器 无 法 对 加 密 的 密 文 解密 , 仅 能 抓 取 
于 下 地 址 .目标 卫 地 址 和 域名 3 个 信息 ,完全 无 
满足 生成 电子 资源 使 用 统计 报告 和 实时 监控 用 户 信 
问 行 为 的 需求 。 
尽管 HTTPS 协议 存在 访问 速度 较 慢 、 部 署 成 本 高 
同 题 , 由 于 其 具有 更 好 的 加 密 性 能 ,可 以 有 效 地 避免 
伟 息 泄露 ， 越 来 越 多 的 网 站 都 从 基于 HITP 协议 的 访 
间 鲍 向 基于 HTTPS 协议 的 访问 。 在 电子 资源 方面 , 国 
外 六 ScienceDirect .Nature .OSA .Springer 数据 库 都 已 经 
柔 十 HTTPS 访问 。 随 着 服务 器 硬件 的 发 展 和 技术 的 
进 腺 HTTPS 的 部 署 成 本 将 越 来 越 低 ,其 访问 速度 也 将 


协议 访问 的 用 户 信 息 行为 。 

在 旁 路 监听 模式 的 基础 上 将 支持 中 间 人 技术 的 程 
序 部 署 在 监控 分 析 服 务 器 上 ,代替 原 有 的 数据 包 捕获 
程序 ,用 于 抓 取 和 分 析 数 据 包 , 就 能 实现 基于 HTTPS 
协议 访问 的 用 户 信息 行为 的 抓 取 。 在 支持 中 间 人 技术 
的 软件 中 ,Fiddler 软件 是 一 个 功能 强大 的 免费 的 Web 
代理 程序 , 仅 需 简单 配置 就 能 实现 解析 HTTPS 协议 ， 
记录 HTTPAHTTPS 访问 信息 , 故 本 文中 选取 Fiddler 软 
件 充 当中 间 人 程序 。 

与 原 有 旁 路 监听 模式 采用 端口 镜像 技术 复制 数据 
包 不 同 的 是 ,中 间 人 技术 需要 分 别 同 用 户 及 电子 资源 
方 建立 连接 传输 数据 ,这 就 需要 在 核心 交换 机 上 采用 
策略 路 由 (policy -based routing, PRB ) 替代 原 有 的 端口 
镜像 技术 将 用 户 访问 电子 资源 的 数据 包 转 发 至 中 间 人 
程序 ,中 间 人 程序 再 根据 转发 来 的 数据 包 信息 与 通讯 
双方 分 别 建立 连接 。 策 略 路 由 是 一 种 依据 用 户 制定 的 
策略 进行 路 由 选择 的 机 制 , 可 以 通过 策略 路 由 实现 数 
据 包 的 转发 。 策 略 路 由 的 应 用 需要 配置 路 由 访问 控制 
列表 (access control list, ACL) ,将 电子 资源 服务 器 的 IP 
地 址 信息 存储 在 ACL 列表 当中 ,从 而 实现 数据 包 的 转 
发 和 过 小 功能 。 

综 上 所 述 , 本 研究 在 现 有 基于 旁 路 监听 的 采集 分 
析 模 式 的 基础 上 ,使 用 策略 路 由 替代 原 有 的 端口 镜像 
技术 实现 数据 包 的 过 滤 和 转发 ,在 监听 分 析 服 务 器 上 
使 用 支持 中 间 人 技术 的 程序 替代 原 有 的 数据 包 捕获 程 


得 针 显 著 的 提升 。 可 以 预见 将 来 会 有 更 多 的 电子 资源 
服 苏 商 基于 信 息 安 全 的 考虑 转向 部 署 HTTPS 访问 。 对 
图 曲 馆 而 言 , 面 对 越 来 越 多 转向 部 署 HTTPS 访问 的 电子 
资源 ,如 何 改进 现 有 的 技术 解决 基于 HTTPS 协议 访问 的 
用 户 信息 行为 无 法 抓 取 的 问题 就 成 了 当务之急 。 
3.2 ”基于 旁 路 监听 模式 的 技术 改进 

解密 HTTPS 协议 有 几 种 方法 :中 利用 浏览 器 存储 
的 私 钥 解密 服务 器 返回 的 加 密 数 据 ;@ 在 应 用 层 加 密 
ee ed 

息 ;@ 采 用 中 间 人 (man-in the-middle ) 技术 控制 客户 端 
和 服务 端 之 间 的 ) 通讯 。 前 两 种 方法 需要 在 用 户 PC 机 
上 安装 客户 端 程序 或 插件 才能 实现 ,对 用 户 影响 较 大 ， 
不 适合 图 书馆 采用 。 第 三 种 方法 中 的 中 间 人 技术 ,能 
够 与 网 络 通讯 两 端 分 别 创建 连接 ,交换 其 收 到 的 数据 ， 
Ee 通讯 两 端 都 认为 自己 直接 与 对 方 对 话 , 事 实 上 整 

会 话 都 被 中 间 人 所 控制 ,用 户 无 法 感受 到 中 间 人 技 
Bei 息 访 问 行为 的 影响 。 从 中 间 人 技术 的 
特点 来 看 ,该 技术 最 适合 图 书馆 用 于 抓 取 基 于 HTTPS 
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序 ,实现 基于 HTTPS 协议 访问 的 用 户 信 息 行为 的 采 
集 , 并 在 此 基础 上 设计 和 应 用 电子 资源 使 用 统计 分 析 
系统 。 


4 系统 功能 模块 设计 与 实现 


4.1 系统 功能 模块 设计 及 业务 流程 

4.1.1 系统 功能 模块 设计 电子 资源 使 用 统计 分 析 系 
统 由 以 下 儿 个 功能 模块 组 成 :数据 过 滤 转 发 模块 数据 
分 析 模 块 统计 分 析 模 块 和 违规 监控 模块 ,如 图 1 i 


RR 


数据 分 析 模块 
电子 资源 访问 数据 | 
pr 电子 交大 访 业 统计 分 析 模块 
其 他 网 络 访问 数据 
| “| “违规 监控 模块 
电子 资源 访问 数据 ”| | 
_。 监控 分 析 服 务 器 -- 


图 1 系统 功能 模块 


陈 广 . 基于 Fiddler 代理 程序 的 电子 资源 使 用 统计 分 析 系 统 的 设计 与 应 用 [可 .图 书 情报 工作 ,2018 ,62(13 ) :30 - 36. 


数据 过 滤 转发 模块 在 核心 交换 机 上 过 滤 数 据 包 ， 
电子 资源 访问 相关 的 数据 包 转 发 至 监控 分 析 服 务 
。 数 据 分 析 模块 在 监控 分 析 服务 器 中 根据 URL 特 
值 .HTTP 状态 码 等 信息 匹配 用 户 电子 资源 全 文 访问 
为 并 记录 至 SQL 数据 库 中 。 统 计 分 析 模 块 采用 B/S 
构 结合 特定 SQL 语句 展示 用 户 电子 资源 访问 信息 。 
违规 监控 模块 采用 C# 语 言 编写 程序 监控 用 户 电子 次 
源 全 文 访问 次 数 ,对 发 生 违规 行为 的 用 户 采取 警告 和 
封禁 两 种 处 理 方式 。 

4.1.2 系统 业务 流程 ” 当 用 户 产生 上 网 数据 时 ,由 数 
据 过 滤 转 发 模块 过 滤 掉 与 电子 资源 访问 无 关 的 数据 并 
将 电子 资源 访问 数据 转发 至 数据 分 析 模 块 ;数据 分 析 
模块 对 数据 加 以 分 析 , 记 录用 户 电子 资源 访问 数据 当 
中 的 全 文 访问 行为 ,同时 触发 违规 监控 模块 。 违 规 监 
拧 愤 决 更 新 相应 用 户 的 全 文 下 载 数 ,将 全 文 下 载 数 同 
用 音 预 设 的 每 日 预警 值 和 禁用 值 进行 比 对 ,根据 比 对 


机 站 富 缆 益 


芯 邢 ,提供 电子 资源 访问 数据 的 可 视 化 等 功能 。 
~ 系统 功能 实现 

> 数据 过 滤 转 发 模块 ”数据 过 滤 转 发 功能 通过 
在 权 心 交换 机 上 开启 策略 路 由 功能 并 配置 相应 的 ACL 
殉 要 实现 ,ACT 列表 包含 电子 资源 服务 器 的 IP 地 址 信 
息 ， 数据 过 滤 功 能 根据 数据 包 的 目标 卫 地 址 进行 过 
3 数据 包 到 达 核 心 交换 机 时 ,提取 数据 包 的 目标 了 
也 ,将 其 与 ACL 列表 中 存储 的 电子 资源 服务 器 的 IP 
地 媚 进 行 匹配 ,目标 卫 地 址 符合 的 数据 包 被 转发 至 监 
控 兢 析 服 务 器 ,不 符合 的 数据 包 不 作 处 理 。 数 据 转发 
功能 通过 指定 匹配 数据 包 的 下 一 跳 地 址 为 监控 分 析 服 
务 器 地 址 (192. 168.4.45) 实现。 

以 Wiley 数据 库 为 例 ,其 ACL 匹配 代码 如 下 : 

acl number 3200 description wiley 

rule 1 permit ip destination 199. 171. 202. 195 
上 [Wiley 数据库 服务 器 IP 
if-match acl 3200 
apply ip -address next -hop 192. 168.4.45 // 监 

控 分 析 服 务 器 P 

部 分 电子 资源 服务 器 采用 CDN ( content delivery 
network ,内容 分 发 网 络 ) 加 速 功 能 ,其 IP 地 址 的 变动 性 
较 强 ,需要 动态 地 维护 更 新 ACL 列表 ,以 免 造 成 数据 
包 漏 发 导致 用 户 访问 数据 的 缺失 。 为 了 动态 更 新 ACL 
列表 ,采用 C# 语 言 编写 程序 ,每 10 分 钟 追 踪 一 次 各 电 
子 资源 服务 器 当前 的 IP 地 址 ,将 追踪 得 到 的 IP 信息 
同 ACL 列表 中 的 卫 信息 进行 对 比 , 如果 ACL 列表 未 


包含 该 卫 信息 则 通过 核心 交换 机 接口 更 新 ACL 列表 。 
4.2.2 数据 分 析 模 块 ”数据 分 析 模 块 在 监控 分 析 服 
务 器 上 部 署 Fiddler 代理 程序 接收 并 分 析 用 户 电子 次 
源 访问 数据 ,通过 特征 值 匹配 及 一 系列 条 件 判断 后 ,将 
满足 判断 标准 的 用 户 信 息 行为 记录 在 SQL 数据 库 中 。 

当 Fiddler 程序 接收 到 一 次 用 户 访问 请 求 时 ,首先 
提取 出 请 求 当中 目标 服务 器 的 域名 信息 ,根据 该 信息 
确定 对 应 的 URL 特征 值 ;其 次 将 用 户 访问 请 求 的 URL 
党 息 与 URL 特征 值 进行 匹配 ,对 于 满足 特征 值 信息 的 
请 求 检测 其 HTTP 状态 码 是 否 为 200 ,确定 本 次 请 求 是 
否 为 一 次 成 功 的 请 求 ; 然 后 对 电子 资源 服务 器 返回 数 
据 的 大 小 进行 检测 ,保障 返回 的 数据 内 容 不 为 空 ;最 后 
将 符合 上 述 一 系列 检测 的 请 求 进行 标记 并 将 相关 访问 
言 息 记录 在 SQL 数据 库 中 。 数 据 分 析 模块 的 业务 流程 
如 图 2 所 示 ; 


.0 


提取 域名 信息 
咬定 URL 特征 值 


所 本 是 “一 和 向 是 下 疯 蕉 、 是 | 标记 请 求 
> ”是 不 为 "信和 SQL 数据 库 
否 否 轩 
CD, 


图 2 数据 分 析 模 块 业务 流程 


SQL 数据 库 中 为 不 同 的 电子 资源 分 别 创建 对 应 的 
数据 库 ,在 数据 库 中 以 “T+ 年 份 "的 形式 作为 数据 表 
名 存储 每 一 年 度 用 户 的 全 文 访问 信息 。 数 据 表 中 主要 
包含 用 户 名 、 部 门 /课题 组 用户 PP、 访问 URL、 时 间 等 
信息 ,详细 的 字段 设置 如 表 1 所 示 : 

表 1 全 文 访问 数据 表 


字段 名 类 型 备注 
id int 唯一 标识 字段 
ul nvarchar( 1000) 用 户 访问 的 全 文 URL 
ip nvarchar(20) 用 户 IP 地 址 
username nvarchar( 100 ) j 户 姓名 
year char(4) 年 
month char(2) 月 
day char(2) 日 
hour char(2) 小 时 
minute char(2) 分 钟 
second char(2) 秒 数 
researchgroup nvarchar( 30) 用 户 所 属 课题 组 或 部 门 
type nvarchar( 10) 用 户 访问 电子 资源 全 文 类 型 
(PDF 文件 或 HTML 文件 ) 
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4.2.3 ”统计 分 析 模 块 ” 统 计 分 析 模 块 基于 B/S 架构 ， 
采用 PHP 语言 ,结合 SQL 语句 制作 网 页 展示 电子 资源 
使 用 情况 ,在 页 面 中 使 用 HighCharts 插件 实现 电子 资 
源 使 用 统计 数据 的 可 视 化 。 

统计 分 析 模 块 面向 图 书馆 和 课题 组 用 户 分 别提 供 


示 各 电子 资源 全 文 下 载 次 数 和 对 应 比例 ,同时 提供 单 
个 电子 资源 课题 组 全 文 总 下 载 次 数 和 对 应 费用 信息 
( 见 图 3)。 课题 组 用 户 页 面 同 样 以 饼 图 、 柱 状 图 及 表 
格 形式 展示 课题 组 用 户 全 文 下 载 次 数 和 费用 情况 , 同 
时 提供 预警 设置 页 面 ,用 于 设置 每 日 预警 值 和 禁用 值 ， 


不 同 的 页 面 内 容 。 图 书馆 页 面 以 饼 状 图 及 表格 形式 展 ”避免 过 量 下 载 ( 见 图 4) 。 
2017 年 全 部 数据 库 统 计数 据 2017 年 ACS 数据 库 下 载 数据 
Springer: 1.4% 张 健 组 : 和 228 
OSA: 0.6% 王 要 兵 组 :1199 平 组 :5129 
AIP: 0.79% 李纲 组 : 1 263 康 强 组 :4 136 
Nature: 3.1% We 谢 奉 组 : 1 345 
郭 国 聪 组 :4 127 
Science: 1.1% 房 新 强 组 : 1 403 S 聊 
SciendeDirect: 12.9% 徐刚 组 : 1 531 = 曹 荣 组 :3 802 
| 鲍 红 丽 组 : 1 589 、， po 王 瑞虎 组 :3 504 
|RSC 下 载 数 :59096 孙 庆 福 组 :1896 9 陈 学 元 组 :3 465 
RSC: 19.7% 官 轮 辉 组 :1931 | 洪 茂 椿 组 :2757 
李 春 森 组 : 1 957 | 罗 军 华 组 : 2714 
陈 忠 宁 组 : 1 968 [| 厦门 稀土 所 : 2709 
-一 卢 灿 忠 组 :2263 > 温 珍 海 组 :2 459 
~ Wiley: 30.09% 林 启 普 组 :2316 尤 舌 组 :2376 
Ji 序号 课题 组 下 线 数 费 
(© 1 张 健 组 5 228 20 180.08 
© 2 苏 伟 平 组 5129 19 797.94 
© 和 康 强 组 4136 15 964.96 
和 | 
© 3 统计 分 析 模 块 图 书馆 页 面 


science: 


nature; 


springer: 


Email: 


PS: 课 题 组 数据 库 全 文 访问 量 达 到 每 日 预警 值 时 ， 系 统 将 发 送 预 警 邮件 至 指定 的 

邮箱 。 达 到 蔡 用 信 时 将 走 接 停止 课题 组 在 相应 数据 库 的 访问 权限 并 同时 发 送 告知 
邮件 。 预 警 值 和 禁用 信 应 为 0 或 正 整数 ， 禁 用 值 应 大 于 等 于 预警 值 。 如 果 将 数值 
设置 为 0， 则 表示 不 设置 对 应 预警 值 或 禁用 值 。 


4 预警 设置 页 面 


4.2.4 违规 监控 模块 ”违规 监控 模块 采用 C# 语 言 
写 程 0 
程序 本 天 各 个 课题 组 的 全 文 下 载 数 , 当 课 


题 组 当天 的 全 文 下 载 数 达到 课题 组 用 户 预 先 设 置 的 每 
日 预警 值 和 禁用 值 时 ,分别 触 发 预警 和 封禁 操作 。 
C# 程 序 中 的 sqlDependency 类 提供 了 这 样 一 种 功 
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能 : 当 被 监测 的 数据 表 中 的 数据 发 生变 化 时 ,会 自动 触 
发 OnChange 事件 来 通知 应 用 程序 。 在 程序 中 使 用 
监控 全 文 访问 数据 表 , 当 该 表 写 人 了 

一 条 新 数据 时 触发 OnChange 事件 ,程序 提取 出 数据 表 
中 新 加 入 记录 的 id researchgroup ,ip 等 3 个 字段 值 , 根 
据 researchgroup 字段 的 值 将 对 应 课题 组 的 全 文 下 载 数 
加 1, 然 后 对 更 新 后 的 课题 组 全 文 下 载 数 进行 判断 。 
当 该 数值 达到 每 日 预警 值 时 ,程序 将 发 送 预警 邮件 至 
指定 的 邮箱 ,达到 禁用 值 时 直接 停止 课题 组 在 相应 数 
据 库 的 访问 权限 并 同时 发 送 告知 邮件 。 每 天 凌晨 程序 
自动 将 所 有 课题 组 的 全 文 下 载 数 重 置 为 0。 程 序 运行 
界面 见 图 5。 


sqlDependency 类 


5S 


系统 应 用 效果 和 存在 的 问题 


5.1 系统 应 用 效果 

本 电子 资源 使 用 统计 分 析 系 统 于 2017 年 7 月份 
部 署 完成 ,经 多 次 修改 后 运行 稳定 。 系 统 投入 使 用 后 ， 
截至 2018 年 1 月 20 日 已 存储 用 户 全 文 访问 记录 36 万 


多 条 ,给 图 书馆 提供 了 强大 的 数据 支持 。 

在 电子 资源 方面 ,通过 统计 分 析 模块 可 以 了 解 到 
各 个 电子 资源 的 全 文 下 载 量 、 下 载 量 占 比 、 篇 均 成 本 等 
信息 ,有 助 于 图 书馆 掌握 电子 使 用 情况 ,调整 电子 资源 
保障 策略 。 以 0SA 数据 库 为 例 ,该 数据 库 2017 年 全 文 
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陈 广 . 基于 Fiddler 代理 程序 的 电子 资源 使 用 统计 分 析 系 统 的 设计 与 应 用 [可 .图 书 情报 工作 ,2018 ,62(13):30 - 36. 


国 ac= 画 回 区 
荣 组 ; 一 EE EE | ip ~ 
刘 天 哑 组 : 15 » 9983 王 瑞 席 组 |172.17.4.72 加 
曹 荣 组 : BT 9962 王 瑞 虎 组 172.17.4.72 
组 名 Ea [ET 
孙 庆 福 组 :94 9960 王 瑞虎 组 172.17.4.72 
| 孙 庆 福 组 : 95 | 
的 红 丽 组 ; 2 9959 | 王 瑞虎 组 |172.17.4.72 
| 孙 庆 福 组 96 9958 柴 国良 组 |172.17, 33,213 
Ee a 9957 黄 学 良 组 172. 18.2.18 
三 瑞虎 组 :63 9956 EE ET 
枉 珊 遍 组 64 9955 黄 学 良 组 172.18.2.16 
区 3 9954 原 强 组 |172, 18,2,4 
鞭 学 良 组 : 4 9953 康 强 组 172. 18.2.4 
本 9952 | 王 瑞虎 组 72.17.1.7 
柴 国良 组 : 1 9951 王 瑞 虎 组 ET 
王 瑞虎 组 : 85 i 
王 瑞虎 组 : 66 9950 | 王 瑞虎 组 172.17.1.7 
王 瑞 虑 组 : 67 9949 王 瑞虎 组 172.17.1.7 
下 澡 948 | 孙 庆 福 组 172. 18.1, 236 
Ee 司 9947 鲍 红 丽 组 172.18.1.67 
acs = 9946 孙 庆 福 组 172. 18.1, 185 
= 9945 孙 庆 福 组 172. 16.1. 185 
二 | 9944 商 蒜 组 _ 172.17.85.9! ”| 可 


变更 后 ,有 可 能 ACL 列表 尚未 更 新 。 如 果 这 时 候 有 用 
户 访问 了 该 电子 资源 服务 器 , 则 这 部 分 访问 数据 无 法 
被 转发 至 监控 分 析 服 务 器 ,无 法 被 数据 分 析 模 块 分 析 
记录 ,从 而 导致 电子 资源 使 用 统计 数据 的 不 准确 。 解 
决 这 个 问题 可 以 考虑 通过 权限 控制 方式 ,只 允许 从 监 
控 分 析 服 务 器 转发 出 来 的 数据 包 有 电子 资源 访问 权 
限 ,这 样 就 强制 用 户 访问 电子 资源 的 数据 包 必 须 通过 
监控 分 析 服 务 器 才能 访问 电子 资源 ,从 而 保障 电子 资 
源 使 用 统计 数据 不 会 缺失 。 不 过 这 种 方法 在 电子 资源 
服务 器 卫 地 址 变动 而 ACL 列表 尚未 更 新 前 ,会 带 来 短 
暂 的 电子 资源 无 法 访问 的 情况 。 


图 5 违规 监控 程序 界面 


下 载 量 低 , 仅 占 全 部 电子 资源 全 文 下 载 量 的 0.6% ,篇 


感 僵 止 订购 该 数据 库 


一 在 分 析 用 户 信息 访问 行为 方面 ,通过 统计 分 析 模 


G9 
块 邑 以 了 解 到 各 课题 组 电子 资源 使 用 


期 刊 。 综 合 上 述 信息 ,可 以 考 
通过 其 他 方式 保障 该 数据 库 。 


扁 好 ,有 助 于 图 


C 


净 往 了 解 科研 用 户 研究 方向 和 科研 需求 ,更 好 地 开展 


吞并 化 服务 工作 。 另 一 方面, 通过 课题 组 全 文 下 载 景 


闫 了 滑 可 以 精确 计算 出 课题 组 所 需 承担 电子 资源 费用 比 
例 3 而 向 课题 组 收取 部 分 电子 资源 费用 。 
> 在 违规 监控 方面 ,系统 于 2017 年 9 月 份 监控 到 某 


课题 组 ACS 数据 库 全 文 下 载 量 异 常 。 


通过 分 析 下 载 


记 深 发 现 ,该 课题 组 使 用 EndNote 软件 批量 下 载 ACS 
妆 饮 库 全 文 。 由 于 系统 及 时 预警 了 异常 下 载 量 , 系统 
管理 员 临 时 封禁 了 该 课题 组 ACS 数据 库 的 访问 权限 ， 
避免 了 因 过 量 下 载 行为 导致 数据 库 商 封禁 数据 库 访问 
权限 、 影 响 其 他 用 户 正常 使 用 数据 库 的 情况 。 


5.2 系统 存在 的 问题 


系统 采用 策略 路 由 替代 了 旁 路 监听 模式 中 的 端口 


图 书馆 对 电子 资源 内 容 级 /用 户 级 的 及 时 、 深 入 分 
析 和 数据 挖掘 的 需求 同 数据 库 商 使 用 统计 报告 局 限 性 
之 间 的 矛盾 ,促使 图 书馆 需 深 入 研究 如 何 自行 采集 电 
子 资源 使 用 统计 数据 。 详 尽 .及 时 全 面 的 电子 资源 使 
用 统计 数据 对 图 书馆 分 析 用 户 需 求 、 避 免 过 量 下 载 行 
为 .提升 图 书馆 知识 服务 能 力 有 着 十 分 重要 的 意义 。 

本 文通 过 对 现 有 旁 路 监听 模式 的 改进 ,解决 了 基 
于 HTTPS 协议 访问 的 电子 资源 使 用 统计 数据 的 采集 
问题 ,在 此 基础 上 设计 并 应 用 了 电子 资源 使 用 统计 分 
析 系 统 , 对 其 他 图 书馆 自行 获取 电子 资源 使 用 统计 数 
据 并 加 以 应 用 具有 一 定 的 借鉴 作用 。 
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Design and Application of Electronic Resource Use Statistical Analysis System Based on Fiddler Agent 
Chen Guang 
Fujian Institute of Research on the Structure of Matter, Chinese Academy of Sciences, Fuzhou 350002 

Abstract. [Purpose/significance | This paper compares and analyzes the main methods of collecting electronic re- 
sources using statistical data by libraries in China at present, and solves the problem that the existing technology method 
cannot acquire the electronic resource access information based on the Https protocol. [ Method/ process | The technology 
js improved on the basis of the existing collection mode based on bypass monitoring. Through the policy routing and Fid- 
dler agent, the Https protocol based access to electronic resource usage statistics and analysis of data is achieved. Base on 
thikss. the electronic resource utilization statistical analysis system is designed and applied. [ Result/conclusion | This pa- 
peisolves the problem of collecting data on the usage of electronic resources based on the Https protocol and provides a 
refetence for other libraries to collect their own statistical data on the usage statistics of electronic resources. 


CIKeywords.: electronic resource policy-based routing usage statistics data Fiddler proxy bypass monitor 
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